Entrenando un MoE disperso de 120B con escalado reversible Aprende a entrenar un MoE de 120B parámetros en un solo nodo GPU usando escalado reversible y cuantización. Optimiza memoria y alcanza pérdida de 1.78. 2026-06-08 · 2 min